Copa del mundo FIFA a través de los años.

Trabajo final de la materia Manejo y visualización de datos,
Maestría en Estadística Aplicada, UNR.

1 Introducción

El presente documento se creó a partir del repositorio de GitHub del usuario Jfjelstul, el cual consta de 27 datasets (aproximadamente 1.1 millones de datos) que cubren todos los aspectos de las 22 ediciones de la Copa del Mundo desde 1930 a 2022.
En base a estos datos, se los trabajó para convertirlos en información y elaborar gráficos e indicadores que sirvan para tener un pantallazo de la historia de la copa más famosa y anhelada en el mundo deportivo.
En la Copa Mundial Masculina de la FIFA, que se celebra cada cuatro años, 32 naciones compiten entre sí por el título. Los distintos clasificatorios continentales dan paso a una fase final de lo más emocionante, que congrega a los aficionados en torno a la pasión y el amor por el deporte rey.

2 Materiales y métodos

Este torneo fue mutando a lo largo de los años acompañando la propia historia de los países. Desde 1930 han ocurrido un sinfín de eventos mundiales que repercutieron en los equipos participantes. Eventos tales como países que se separan, que se unen, que cambian de nombres; obligan a realizar una serie de modificaciones en la base de datos.
Estas modificaciones forman parte de la limpieza y orden de los datos. A fines de poder representar la performance de territorios que han cambiado de nombre y bandera, se hicieron las siguientes modificaciones en todas las tablas que se descargaron del paquete worldcup:

goals$team_name[goals$team_name == "West Germany"] <- "Germany"
goals$team_name[goals$team_name == "East Germany"] <- "Germany"
goals$team_name[goals$team_name == "England"] <- "United Kingdom"
goals$team_name[goals$team_name == "Wales"] <- "United Kingdom"
goals$team_name[goals$team_name == "Northern Ireland"] <- "United Kingdom"
goals$team_name[goals$team_name == "Scotland"] <- "United Kingdom"
goals$team_name[goals$team_name == "Republic of Ireland"] <- "Ireland"
goals$team_name[goals$team_name == "North Korea"] <- "Dem. Rep. Korea"
goals$team_name[goals$team_name == "South Korea"] <- "Dem. Rep. Korea"
goals$team_name[goals$team_name == "Ivory Coast"] <- "Côte d'Ivoire"
goals$team_name[goals$team_name == "Serbia and Montenegro"] <- "Serbia"
goals$team_name[goals$team_name == "Yugoslavia"] <- "Serbia"
goals$team_name[goals$team_name == "Czechoslovakia"] <- "Czech Republic"
goals$team_name[goals$team_name == "Russia"] <- "Russian Federation"
goals$team_name[goals$team_name == "Soviet Union"] <- "Russian Federation"


Pensar en la copa del mundo es pensar en ciertos países que históricamente han destacado en el futbol. No solo por haber ganado el primer lugar sino por siempre mantenerse en el podio.
La tabla “tournament_standings” provee información sobre los resultados de cada torneo. Particularmente almacena información sobre el primer, segundo, tercer y cuarto puesto de cada edición del torneo. Con esta información se diseñará un indicador para puntuar la performance de los países teniendo en cuenta cuantas veces logró estar entre los primeros 4 puestos. El objetivo es construir un indicador que sea más representativo que la cantidad de veces que cada país ganó la copa.
Entonces, el indicador “Score” refleja la cantidad de veces que un equipo fue finalista o semifinalista en esta competición, otorgándole 1, 2, 3 o 4 puntos dependiendo si su posición fue cuarta, tercera, segunda o primera respectivamente.
El indicador “primer_puesto” es la cantidad de veces que un equipo ganó la copa del mundo
De esta manera, la tabla de posiciones considerando todos los mundiales queda de la siguiente manera:

La misma información la podemos observar de manera gráfica, de manera tal que los paises con un score más alto, aparecen graficados más grandes y de colores más oscuros:

3 Resultados

Teniendo los datasets organizados se prosigue a transformar los datos en información, con el objetivo de representarlos en gráficos amigables, intuitivos e interesantes.

3.1 Bar chart race

Además del score que se construyó anteriormente, es interesante observar la cantidad de goles que ha convertido cada país a lo largo de la historia. De esta manera, se muestra en el siguiente gráfico, por año, el ranking de los países con más goles acumulados.

3.2 Variables en el mapa

Para una interpretación más amigable, se muestran los resultados que ha tenido cada país sobre un mapa interactivo.
De esta forma se puede observar, para cada país:

  • Cuantos goles ha convertido a lo largo de todos los mundiales,
  • Cual es su score actual en base a cuantas veces fue finalista o semifinalista, y
  • Cuantas veces ha sido anfitrión de un torneo.

Los países se colorean en base a la cantidad de goles que han convertido.

3.3 Variables por partido jugado

Puede ser de interés visualizar como han ido evolucionando algunas variables a lo largo de los años. ¿Ahora se convierten más goles que antes?, ¿Las faltas y sustituciones en los equipos variaron o siempre fueron aproximadamente similares?
Para responder estas preguntas, Se va a normalizar en base a los partidos jugados las siguientes variables:

  • Goles,
  • Sustituciones,
  • Faltas (tarjeta amarilla y roja),
  • Penales concedidos, y
  • Penales convertidos.

De esta manera, se podrá visualizar la cuantía de las variables anteriormente mencionadas por partido jugado.
Para los gráficos de esta sección, al pasar el cursor sobre un punto determinado, se despliega la información de ese punto. Particularmente, que país es, el año y el valor de la variable.
El tamaño de cada punto varía dependiendo los goles que haya convertido cada país.

El siguiente gráfico muestra los Goles por partido de cada país en cada uno de los mundiales.

El siguiente gráfico muestra las Sustituciones por partido de cada pais en cada uno de los mundiales. Destacamos aquí que impacta como han ido aumentando las sustituciones máximas permitidas, desde 2 a 3 y luego a 5. Hay algunos países que ocasionalmente han excedido esos límites, lo cual se debe a las sustituciones adicionales por tiempo extra añadido al partido.
Solo se cuenta con información a partir del año 1970.

La variable Tarjetas por partido suma las tarjetas amarillas y rojas que han sido cobradas en los partidos a partir del año 1970.

Siguiendo la línea de las faltas cobradas con tarjetas, se puede analizar cómo fue variando la cantidad de Penales por partido.
Para esta variable, se tienen datos desde 1982.

Y, de manera análoga, los Partidos convertidos por partidos:

Teniendo la información sobre los penales pateados y convertidos, se puede analizar la Eficiencia en la conversión de goles.
En el siguiente gráfico, se puede observar cómo ha sido la eficiencia a lo largo de los años, agrupado por continente.
La eficiencia se calcula como la cantidad de goles convertidos en penal sobre la cantidad de penales pateados.
En las referencias, se puede clicklear un continente en particular para ocultar su gráfico.

En lo que respecta exclusivamente a la última edición de la copa del mundo, a continuación se presenta una lista de la eficiencia de los paises que han pateado penales.

3.4 Performance en cada mundial.

Consagrarse campeón del mundo no es nada fácil. Se deben ganar todos, o casi todos, los partidos jugados.
A continuación, se muestran cuantos partidos ganó, empató y perdió (en ese orden) los países que lideran el podio en base al score diseñado.
En la Shiny app adjunta se pueden ver los resultados para todos los países.

4 Conclusiones

A lo largo del trabajo se ha seleccionado, organizado y limpiado datos para convertirlos en información. Esa información luego fue transformada para que se pueda visualizar en gráficos interesantes, intuitivos y amigables.
Si bien aquí se optó por graficar las variables más representativas del dataset orginal, para la persona al que le interese la temática, la información abunda, y son innumerables las variables de interés.
Para futuras investigaciones, sería sumamente interesante complementar la información presentada con datos sobre cómo vivieron las personas, los hinchas de cada equipo, cada uno de los mundiales. Para ello Twitter se perfila como una base de datos ideal.